Heise 22.05.2026
16:15 Uhr

heise+ | Large Language Models testen mit EVALs – Qualität messbar machen


Warum das Testen von LLMs schwer ist: Sie sind nicht deterministisch. Gleicher Input kann unterschiedliche, teils faktisch falsche Outputs erzeugen.

heise+ | Large Language Models testen mit EVALs – Qualität messbar machen

Im klassischen Softwaretest kennen wir das Prinzip: definierter Input, erwarteter Output, eindeutiges Ergebnis. Bei LLMs hingegen ist die Bewertung komplexer. Eine Antwort kann semantisch korrekt sein, aber anders formuliert als erwartet. Sie kann formal richtig erscheinen, aber eine Halluzination enthalten.

Zusätzlich verändern sich Modelle kontinuierlich durch Updates, Prompt-Anpassungen oder Fine-Tuning. Die zentrale Challenge lautet daher: Wie können wir die Qualität eines nicht deterministischen Systems reproduzierbar und automatisiert messen?

Besonders kritisch wird das bei produktiven Anwendungen wie der automatisierten Bewertung von Kunden-Feedback. Wenn ein LLM die Daten falsch klassifiziert, kann das direkte Auswirkungen auf Support-Prozesse, Eskalationen oder Management-Reports haben.